产生表现力和上下文适当的韵律仍然是现代文本到语音(TTS)系统的挑战。对于长,多句的输入,这一点尤其明显。在本文中,我们检查了基于变压器的快速语音系统的简单扩展,目的是改善多句子TT的韵律。我们发现,漫长的上下文,强大的文本功能以及对多演讲者数据的培训都改善了韵律。更有趣的是,它们产生协同作用。长篇小说席卷了韵律,改善了连贯性,并发挥了变形金刚的优势。来自强大的语言模型(例如BERT)的微调单词级功能似乎从更多培训数据中获利,在多演讲者设置中很容易获得。我们调查有关暂停和起搏的客观指标,并对语音自然进行彻底的主观评估。我们的主要系统结合了所有扩展,取得了始终如一的良好结果,包括对所有竞争对手的言语自然性的显着改善。
translated by 谷歌翻译
Flexible task planning is still a significant challenge for robots. The inability of robots to creatively adapt their task plans to new or unforeseen challenges is largely attributable to their limited understanding of their activities and the environment. Cooking, for example, requires a person to occasionally take risks that a robot would find extremely dangerous. We may obtain manipulation sequences by employing knowledge that is drawn from numerous video sources thanks to knowledge retrieval through graph search.
translated by 谷歌翻译
日常生活中交流最关键的方面之一是言语识别。基于自然语言处理的语音识别是将一个系统转换为另一个系统的基本要素之一。在本文中,我们创建了一个界面,将语音和其他听觉输入转换为使用数字过滤器的文本。与这种转换的许多方法相反,语言缺陷偶尔出现,性别识别,语音识别,失败(无法识别声音)和性别识别失败。由于涉及技术问题,我们开发了一个程序,该程序充当调解人,以防止启动软件问题,以消除这种小偏差。其计划的MFCC和HMM与其AI系统同步。结果,已经避免了技术错误。
translated by 谷歌翻译
深度神经网络(DNNS)的边缘训练是持续学习的理想目标。但是,这受到训练所需的巨大计算能力的阻碍。硬件近似乘数表明,它们在获得DNN推理加速器中获得资源效率的有效性;但是,使用近似乘数的培训在很大程度上尚未开发。为了通过支持DNN培训的近似乘数来构建有效的资源加速器,需要对不同DNN体系结构和不同近似乘数进行彻底评估。本文介绍了近似值,这是一个开源框架,允许使用模拟近似乘数快速评估DNN训练和推理。近似值与TensorFlow(TF)一样用户友好,仅需要对DNN体系结构的高级描述以及近似乘数的C/C ++功能模型。我们通过使用GPU(AMSIM)上的基于基于LUT的近似浮点(FP)乘数模拟器来提高乘数在乘数级别的模拟速度。近似值利用CUDA并有效地将AMSIM集成到张量库中,以克服商业GPU中的本机硬件近似乘数的缺乏。我们使用近似值来评估使用LENET和RESNETS体系结构的小型和大型数据集(包括Imagenet)的近似乘数的DNN训练的收敛性和准确性。与FP32和BFLOAT16乘数相比,评估表明测试准确性相似的收敛行为和可忽略不计的变化。与训练和推理中基于CPU的近似乘数模拟相比,GPU加速近似值快2500倍以上。基于具有本地硬件乘数的高度优化的闭合源Cudnn/Cublas库,原始张量量仅比近似值快8倍。
translated by 谷歌翻译
当今的计算机不仅限于笔记本电脑和台式机。手机和笔记本电脑等移动小工具也可以利用它。但是,在过去50年中没有更改的一个输入设备是QWERTY键盘。通过传感器技术和人工智能,虚拟键盘用户可以在任何表面上输入任何表面。在这项研究中,我们使用图像处理的想法来创建一个应用程序,以使用新颖的框架来查看计算机键盘,该框架可以精确地检测手势,同时也具有可持续性且在财务上可行。相机用于捕获键盘图像和手指动作,后来充当虚拟键盘。此外,本研究还描述了一种接受手指坐标为输入的可见虚拟小鼠。该系统具有降低外围成本的直接好处,减少由于外部设备而产生的电子废物,并为无法使用传统键盘和鼠标的人们提供可访问性。
translated by 谷歌翻译
已经证明,基于光子微孔谐振器(MRR)硬件加速器可为处理深卷积神经网络(CNN)提供破坏性的加速和能源效率的改进。但是,以前基于MRR的CNN加速器无法为具有混合张量的CNN提供有效的适应性。此类CNN的一个例子是可分离的CNN。在这种不灵活的加速器上对CNN进行CNN的推断通常会导致低硬件利用率,从而降低了加速器的可实现性能和能源效率。在本文中,我们提出了一种在基于MRR的CNN加速器中引入可重构性的新方法,以使加速器硬件组件和使用硬件组件处理的加速器硬件组件和CNN张量之间的尺寸兼容性进行动态最大化。我们根据加速器中使用的硬件组件的布局和相对位置将基于最新的MRR的CNN加速器分为两个类别。然后,我们使用我们的方法在这两个类别中引入加速器中的可重构性,从而改善其并行性,有效映射不同尺寸的张量,速度和整体能源效率的灵活性。我们根据面积比例的前景(所有加速器的相等硬件区域)对可重构加速器进行了可重构加速器的评估。我们对四个现代CNN的推断的评估表明,与来自MRR基于MRR的基于MRR的加速器相比,我们设计的可重新配置CNN加速器可改善高达1.8倍,而FPS/W高达1.5倍。先前的工作。
translated by 谷歌翻译
需要在最终用户设备(例如智能手机)上训练DNN模型的需求,而随着需要改善数据隐私并减少通信开销的需求。与具有功能强大CPU和GPU的数据中心服务器不同,现代智能手机由多种专门内核组成,遵循系统启动(SOC)架构,共同执行各种任务。我们观察到,在智能手机SOC上的培训DNN不仔细考虑其资源限制不仅会导致次优培训表现,而且还会显着影响用户体验。在本文中,我们展示了天鹅,这是一种神经引擎,可在不损害用户体验的情况下优化智能手机SOC的DNN培训。广泛的大规模评估表明,天鹅可以在最先进的情况下提高1.2-23.3倍的表现。
translated by 谷歌翻译
假新闻是制作作为真实的信息,有意欺骗读者。最近,依靠社交媒体的人民币为新闻消费的人数显着增加。由于这种快速增加,错误信息的不利影响会影响更广泛的受众。由于人们对这种欺骗性的假新闻的脆弱性增加,在早期阶段检测错误信息的可靠技术是必要的。因此,作者提出了一种基于图形的基于图形的框架社会图,其具有多头关注和发布者信息和新闻统计网络(SOMPS-Net),包括两个组件 - 社交交互图(SIG)和发布者和新闻统计信息(PNS)。假设模型在HealthStory DataSet上进行了实验,并在包括癌症,阿尔茨海默,妇产科和营养等各种医疗主题上推广。 Somps-Net明显优于其他基于现实的图表的模型,在HealthStory上实验17.1%。此外,早期检测的实验表明,Somps-Net预测的假新闻文章在其广播仅需8小时内为79%确定。因此,这项工作的贡献奠定了在早期阶段捕获多种医疗主题的假健康新闻的基础。
translated by 谷歌翻译